查看原文
其他

分享实录 | 开启一个A/B实验的正确姿势

Yang 字节跳动数据平台
2024-09-12

本文是火山引擎开发者社区Meetup分享-《ab测试驱动业务增长》的实录整理,第一篇介绍A/B测试与火山引擎A/B测试产品以及A/B实验背后的逻辑,本篇将着力介绍如何正确开启一个实验。


文 | Yang 来自 字节跳动数据平台团队

由于A/B实验能同时满足了低风险,抗干扰和量化结果的要求,因此不论在互联网产品研发还是科学研究中,都被广泛使用。本文是火山引擎开发者社区Meetup分享-《ab测试驱动业务增长》的实录整理,第一篇介绍A/B测试与火山引擎A/B测试产品以及A/B实验背后的逻辑,本篇将着力介绍如何正确开启一个实验。

A/B Test

开启实验前的灵魂三问

我们在开实验之前,会对自己进行灵魂三问。
  • 第一问:确定实验目标是啥。

这其实是需要大家根据自己的业务目标去拆解实验的目标。我们建议目标能越单一或者说越简单,这样可以越容易分析和评估效果。
比如说你对十个功能都进行了一个改版,然后合在一起去做一个实验。其实这个时候我们是没有办法很好地评估到底是哪一个功能影响了这个实验的数据。
  • 第二问:决策依据——目标指标提升多少就值得上线。

评估标准就是我们需要去设置一些评估的指标,以及这个指标提升的具体幅度。
  • 第三问:我们需要知道具体要怎么开实验。这里有几个关键点:

  1. 第一个是实验变量,这个是需要和目标互为因果的单一变量;
  2. 第二个是开在哪里。这个其实就是刚刚提到过的实验层的一个选择,也是反复提到过的,需要避免实验之间相互叠加的影响,选择正确的实验层。
  3. 第三个是对谁生效。我们开实验会有一些定向圈人的需求,或者说对流量有过滤条件这样的需求,这需要提前想清楚。
  4. 第四个是多少流量、开多久?这个核心问题其实就是我们评估的目标到底需要多少样本量才可以完成实验的评估。我们建议在有条件的情况下,至少开满一个自然周就是 7 天,因为这样可以抹平一周期性的数据波动。具体要多少流量的话,其实有一些样本量计算器去辅助大家去计算。

A/B Test

A/B实验的全生命周期

一个A/B实验的全生命周期大概包括四个点,分别是设计实验,然后是创建实验、评估实验跟上线。
  • 设计实验

我们要先去设计好一个实验,才能去拿到一个符合预期的收益。比如说我在产品上发现了一个问题,我需要出一个方案去解决这个问题。然后这个方案其实就是需要用指标去量化的。那我们的实验目标和我们的评估指标可以作为我们实验的最终指标。
举个例子,现在我要提升页面的一个转化率,那我的指标可以定义为实验组转化率上升1%,它就是一个可以上线的一个实验组。
  • 创建实验

这里的关键点其实就是要把实验开对,测试全面,因为只有实验开对,收集完数据之后才能正确地去评估。我们需要先明确流量开多少,开在哪,然后过滤条件,然后进行实验组的配置,然后再进行实验的Review 保障实验室配置正确。我们也会建议大家去配置一些实验监控,然后利用监控指标,及时帮大家去发现问题、评估实验。
  • 评估实验

其实就是对实验指标进行一些评估。我们需要评估目标指标,指标提升的具体幅度以及一些 p-value 、置信区间相关的统计值。这里其实强调一点——每个实验它是有一个直接指标。比如刚刚提到的转化率就是我们实验的直接指标。但我们只看这个指标其实是不够的,因为我们开的任何实验其实都不能对产品自己的核心指标有负向影响。所以除了直接指标,我们也建议大家一定要关注自己产品的一些核心指标
  • 实验上线

上线其实推荐大家用介绍过的 feature flags 这个功能去进行一键上线优胜组的操作,这样做方便又快速。

点击阅读原文了解火山引擎A/B测试

产品介绍

火山引擎A/B测试

A/B测试,摆脱猜测,用科学的实验衡量决策收益,打造更好的产品,让业务的每一步都通往增长。后台回复数字“8”了解产品

- End -

欢迎关注字节跳动数据平台官方公众号
继续滑动看下一个
字节跳动数据平台
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存